Gemini Embedding 2
Gemini Embedding 2: Our first natively multimodal embedding model

- 2026年3月10日に公開された Gemini API 初のマルチモーダル埋め込みモデル
- text / image / audio / video / PDF を同じ埋め込み空間に載せられる
- Text: 最大8192 tokens
- Image: 最大6枚/req、png / jpeg 対応
- Audio: テキストの文字起こし不要版、みたいな理解
- Video: 最大120s、mp4 / mov 対応
- Documents: 最大6ページまでのPDF
さらに複数モーダルでの埋め込みも生成可能
- text + image に対して1埋め込みを生成することができる
用途を考える
- シンプルに個人の何でもメモストレージを検索できる強み
- PDF、画像、動画、何でも込みで検索できる
- スポーツの動画クリップの検索とかできるんだろうか?
- サッカーの戦術クリップの検索とか
- メタデータのテキストと一緒に埋め込むとよさそう
- サッカーの戦術クリップの検索とか
- カラオケの検索
- あいまいな条件から楽曲の検索
- Gemini Embedding が Audio をどう扱っているのかによりそう、ジャンルなどの意味も楽曲の雰囲気から自動判別して解釈してくれたら最高
- あいまいな条件から楽曲の検索